时政
财经
科技
登录
#Reinforcement Learning
关注
Ben X
3周前
很多人嘲笑谷歌,说谷歌在AI时代掉队了。但其实,谷歌是目前为止最领先的AI公司,而且,很可能领先幅度会越来越大。Deepmind最新的Agent,AlphaEvolve,已经非常接近具备自我迭代,持续进步的能力了。这是谷歌过去这么多年在Reinforcement Learning方面的积累从量变到质变的结果,其他公司,也就是马斯克的xAI+Tesla有可能可以追一追,其他公司离得就更远了。接下来,谷歌在技术上大概率会继续领先,唯一的悬念是谷歌如何把这种技术上的领先变现了。详情请见视频。
#谷歌
#AI时代
#DeepMind
#AlphaEvolve
#Reinforcement Learning
#创新技术
#马斯克
#XAI
#TESLA
分享
评论 0
0
马东锡 NLP 🇸🇪
2个月前
「DeepSeek, Reasoning」论文 DeepSeek-Prover-V2: Advancing Formal Mathematical Reasoning via Reinforcement Learning for Subgoal Decomposition 用"sorry"做占位符,sorry,除了硬核,无法可说。 DeepSeek这篇在reasoning的追求上,到了一个让普通老百姓不能理解的程度。 DeepSeek 的一系列推理模型,已经用test time scaling的方法,证明它有做奥赛数学题的reasoning能力。 但这不够,这篇论文不要已经work的非正式性自然语言推理过程,一定要formal theorem proving,要用数学正式表达的形式化推理,。怎么评价呢,“挺卷的反正就” 。 方法上,DeepSeek把“非正式分解 + 递归求解 + 强化学习”整合为一条pipeline: - DeepSeek-V3 先用自然语言写出解题思路,同时把每一步翻译成 Lean 子目标(以 sorry 结尾)。 - 一个 7B 参数的 prover 模型递归地填补这些 sorry,得到完整 Lean 证明。 - 拼接后的“CoT + 正式证明”作为冷启动数据,再用 RL 微调,显式奖励"证明结构与分解保持一致"。 看完论文,一头雾水,为啥用sorry做占字符? 问了一下专门做数学研究的朋友,才知道,微软的Lean是专门用来做交互式地构造严谨证明,sorry就是Lean的本身对数学推导的占字符。😱 读完其他优秀的论文,我总会感叹exciting,amazing。 这篇只有,无法可说,sorry....
#DeepSeek
#reasoning
#Formal Mathematical Reasoning
#Reinforcement Learning
#Subgoal Decomposition
分享
评论 0
0
马东锡 NLP 🇸🇪
2个月前
「Agent, RAG, Reasoning」论文 ReSearch: Learning to Reason with Search for LLMs via Reinforcement Learning ReSearch,充满了 ReAct 的影子。它教会模型“何时求助于世界”;但局限在于,ReSearch 只能依赖一种工具。 作者提出了一种创新的框架,名为 ReSearch,旨在通过强化学习(RL)训练 LLM 在推理过程中有效地反复利用 search API 完成任务。 从任务形式上,它解决的是增强LLM+ RAG的问题,但并不同于基于 embedding 的单轮相似度检索方法。 它关注的是多次 query、反复调用 search API 来完成信息查询任务。 并不同于基于embedding去单次算相似度的方法,它解决的是多次query,反复调用search API完成外部信息查询的问题。 而反复调用 API,涉及推理能力去决策调用的时机,以及生成调用的参数 —— 这是一个典型的 agent + function calling 场景。 ReSearch目标将这种search的reasoning能力通过RL学到。 具体来说,ReSearch 采用了专门为搜索功能设计的训练模版: <think>...</think>:表示模型的思考过程; <search>...</search>:表示模型发起的搜索查询; <result>...</result>:表示搜索引擎返回的结果; <answer>...</answer>:表示模型给出的最终答案。 特别地,ReSearch 的奖励函数不是仅仅基于答案对错,而是采用 rule-based 的组合机制:基于答案的 F1 相似度 + 输出格式是否符合模板,以此优化 policy,微调语言模型参数。 此时不免再次提及 ReAct:ReSearch 充满了 ReAct 的循环影子——: Reasoning:模型的思考过程; Action:模型发起的调用; Observation:工具返回的反馈。 ReAct 是神作,它以 verbal reasoning (人话)的方式,将原本充满数学公式的 RL 概念转化为语言链式推理,让 LLM 学会如何使用工具,优雅而简洁。 一些思考: ReSearch 以及前几天分享的 ReTool 是非常类似的工作,它们都通过强化学习微调,将使用工具的能力内化于语言模型中,增强工具调用的鲁棒性。 但它们的局限性也非常明显:ReSearch 和 ReTool 都只支持一种工具 —— search API 和 code interpreter。 而 ReAct,通过 Prompt Engineering,就可以灵活调用多个外部工具。 ReSearch 和 ReTool 的 RL 框架是为“单工具、二选一调度”设计的。如果强行扩展为多工具,训练信号将更加稀疏、credit assignment 更加困难,其策略网络、reward assignment、以及 rollout 表达能力都需要重新设计。 我们距离真正原生具备多轮、多工具能力的通用 Agent,还有一段距离。
#agent
#RAG
#reasoning
#Research
#React
#强化学习
#大模型
#Reinforcement Learning
#工具使用
#创新框架
分享
评论 0
0
马东锡 NLP 🇸🇪
2个月前
「Agent, Reasoning」论文: Generative Verifiers: Reward Modeling as Next-Token Prediction 拟人化的 reward model,超越机械的打分,一个非常聪明的方法。 之前的分享中提到过,在 Large Reasoning Model 时代,RL 的方法几乎都是 Reinforcement Learning with Human Feedback 的延展。 只不过,后来的方法在思路上都是把 human feedback 替换成了 reward model。 传统上,reward model 仅仅是一个打分模型,而这篇论文则把 reward model 从简单的打分模型,转变为 next-token 输出, 即超越机械生硬的打分,增添了文字,推理,或者rule。 这大大提升了 reward model 的灵活性,因为可以把所有 prompting engineering 的技巧,比如 CoT、对打分的 reasoning 过程等都结合进来并输出,从来辅助打分。 从思维方式上来看,这篇论文更倾向于将 RM 作为一个“人”来使用,非常聪明。 可见,RM 上的创新将会是Large Reasoning Model重点的方法创新主题,拭目以待。
#Generative Verifiers
#Reward Modeling
#Next-Token Prediction
#Large Reasoning Model
#Reinforcement Learning
分享
评论 0
0
马东锡 NLP 🇸🇪
3个月前
LRM论文选读:START: Self-taught Reasoner with Tools 这篇文章介绍了一种构建特定任务、私域Large Reasoning Model的有效方法,主要方法是微调,而且没有使用reinforcement learning,但却有非常类似reinforcement learning with human feedback的特征。 关键词有二: Test-time scaling Rejection sampling fine-tuning(反思微调)
#Large Reasoning Model
#微调
#Reinforcement Learning
#human feedback
#论文选读
#特定任务
#私域
分享
评论 0
0
马东锡 NLP 🇸🇪
3个月前
Large Reasoning Model时代, 几乎等于Reinforcement Learning + LLM的时代。 但RL专业性非常强,去参加ML的会议时,专门做RL的研究员都现场拿着笔纸推算数学公式,掌握起来学习难度较高。 分享一本RL的入门教材,从RL基础MDP,PPO,直到跟LLM结合,如RLHF,都有讲解,深入浅出。 Reinforcement Learning: An Overview:
#强化学习
#大型语言模型
#RLHF
#PPO
#MDP
#Reinforcement Learning
#LLM
分享
评论 0
0
个人主页
通知
我的投稿
我的关注
我的拉黑
我的评论
我的点赞